Loading...
机构名称:
¥ 1.0

尽管已经对数百万个基因组进行了测序,但其中大多数是从少数物种(例如人,大肠杆菌和结核分枝杆菌)中测序的。结果,现有的基因组序列是高度冗余的。这就是Hunt等人的方式。(2024)压缩了7.86个细菌组件(TB),也称为Alltheberacteria,在分组系统发育相关的基因组后,将其分成78.5 GB(GB)(Bˇrinda等人(Bˇrinda等),2024)。所得的压缩文件无损地保留所有序列,但不能直接搜索。索引对于启用快速序列搜索是必需的。k-mer数据结构是序列索引的流行选择(Marchet等人,2021)。它们可以分为三类。第一类并不将K-MER与数据库序列中的位置相关联。这些数据结构支持会员资格查询或伪字符(Bray等人,2016年),但无法重建输入序列或报告基础对齐。Petabase量表的序列搜索使用所有此类方法(Edgar等人,2022; Karasikov等。,2024; Shiryev和Agarwala,2024年)。第二类将K-MER的子集与其位置相关联。找到K-MER匹配时,此类别中的算法回到数据库序列并执行基本对齐。大多数对齐器都这样工作。但是,由于数据库序列不能很好地压缩,因此这些算法可能需要很大的空间来存储它们。最后一个类别保留所有K-Mers及其位置。,2024)。此类别中的算法可以重建所有数据库序列而无需明确存储它们。尽管可以有效地压缩K-MER的位置(Karasikov等人,2020),他们仍然占用很大的空间。最大的无损K-MER指数由一些terabase组成(Karasikov等人压缩全文索引,例如FM索引(Ferragina和Manzini,2000)R-Index(Gagie等人。,2018年; Bannai等。,2020年; Gagie

arxiv:2409.00613v2 [q-bio.gn] 2024年11月6日

arxiv:2409.00613v2 [q-bio.gn] 2024年11月6日PDF文件第1页

arxiv:2409.00613v2 [q-bio.gn] 2024年11月6日PDF文件第2页

arxiv:2409.00613v2 [q-bio.gn] 2024年11月6日PDF文件第3页

arxiv:2409.00613v2 [q-bio.gn] 2024年11月6日PDF文件第4页

arxiv:2409.00613v2 [q-bio.gn] 2024年11月6日PDF文件第5页

相关文件推荐

2024 年
¥1.0
2024 年
¥1.0